12 research outputs found

    FAIR semantics and the NVS

    Get PDF
    The FAIR principles provide guidelines for the publication of digital resources such as datasets, code, workflows, and research objects aiming at making them Findable, Accessible, Interoperable, and Reusable(1). Amongst them, the I of the FAIR promotes interoperability and more specifically principle I2 suggests that metadata should use vocabularies that themselves follow the FAIR principles. Recently, FAIRsFAIR1 project officially published a first iteration of recommendations for making vocabularies FAIR (2). These recommendations include 17 general recommendations aligned with the different FAIR Principles and 10 Best Practice recommendations. The main objective of these recommendations is to provide a set of guidelines for creating a harmonised and interoperable semantic landscape easing the use and reuse of semantic artefacts from multiple different scientific domains

    Oceanids C2: An Integrated Command, Control, and Data Infrastructure for the Over-the-Horizon Operation of Marine Autonomous Systems

    Get PDF
    Long-range Marine Autonomous Systems (MAS), operating beyond the visual line-of-sight of a human pilot or research ship, are creating unprecedented opportunities for oceanographic data collection. Able to operate for up to months at a time, periodically communicating with a remote pilot via satellite, long-range MAS vehicles significantly reduce the need for an expensive research ship presence within the operating area. Heterogeneous fleets of MAS vehicles, operating simultaneously in an area for an extended period of time, are becoming increasingly popular due to their ability to provide an improved composite picture of the marine environment. However, at present, the expansion of the size and complexity of these multi-vehicle operations is limited by a number of factors: (1) custom control-interfaces require pilots to be trained in the use of each individual vehicle, with limited cross-platform standardization; (2) the data produced by each vehicle are typically in a custom vehicle-specific format, making the automated ingestion of observational data for near-real-time analysis and assimilation into operational ocean models very difficult; (3) the majority of MAS vehicles do not provide machine-to-machine interfaces, limiting the development and usage of common piloting tools, multi-vehicle operating strategies, autonomous control algorithms and automated data delivery. In this paper, we describe a novel piloting and data management system (C2) which provides a unified web-based infrastructure for the operation of long-range MAS vehicles within the UK's National Marine Equipment Pool. The system automates the archiving, standardization and delivery of near-real-time science data and associated metadata from the vehicles to end-users and Global Data Assembly Centers mid-mission. Through the use and promotion of standard data formats and machine interfaces throughout the C2 system, we seek to enable future opportunities to collaborate with both the marine science and robotics communities to maximize the delivery of high-quality oceanographic data for world-leading science

    Ocean data product integration through innovation-the next level of data interoperability

    Get PDF
    In the next decade the pressures on ocean systems and the communities that rely on them will increase along with impacts from the multiple stressors of climate change and human activities. Our ability to manage and sustain our oceans will depend on the data we collect and the information and knowledge derived from it. Much of the uptake of this knowledge will be outside the ocean domain, for example by policy makers, local Governments, custodians, and other organizations, so it is imperative that we democratize or open the access and use of ocean data. This paper looks at how technologies, scoped by standards, best practice and communities of practice, can be deployed to change the way that ocean data is accessed, utilized, augmented and transformed into information and knowledge. The current portal-download model which requires the user to know what data exists, where it is stored, in what format and with what processing, limits the uptake and use of ocean data. Using examples from a range of disciplines, a web services model of data and information flows is presented. A framework is described, including the systems, processes and human components, which delivers a radical rethink about the delivery of knowledge from ocean data. A series of statements describe parts of the future vision along with recommendations about how this may be achieved. The paper recommends the development of virtual test-beds for end-to-end development of new data workflows and knowledge pathways. This supports the continued development, rationalization and uptake of standards, creates a platform around which a community of practice can be developed, promotes cross discipline engagement from ocean science through to ocean policy, allows for the commercial sector, including the informatics sector, to partner in delivering outcomes and provides a focus to leverage long term sustained funding. The next 10 years will be “make or break” for many ocean systems. The decadal challenge is to develop the governance and co-operative mechanisms to harness emerging information technology to deliver on the goal of generating the information and knowledge required to sustain oceans into the future

    Developing an integrated interoperable framework for the unified access to heterogeneous multimedia medical data

    No full text
    The research scope of this particular thesis, focused in the study, representation, management and integration of biosignals, in the cardiology domain. ECGs constitute cardiology domain biosignals, which are traditionally store, either in electronic data formats, which are mainly proprietary, or converted to widely accepted ECG coding standards like EDF (European Data Format), SCP-ECG (Standard communications protocol for computer assisted electrocardiography) etc. Apart from the signal itself, most of these standards encompass the equally important context and content meta-data of the signal. Biosignal context refers to information about patient demographics, diagnosis, recording equipment, researcher/investigator, etc while annotation and interpretation information constitute part of the bio-signal content. This thesis was motivated by the requirement of an integrated and interoperable environment, for the unified study of mainly heterogeneous biosignals, originating from different population groups and recorded under diverse conditions. Interoperability, defined as a prerequisite in this work, introduced the notion of standards, which are numerous in the healthcare domain. Most of the standards encode ECGs in flat file formats, which lack the information necessary to support meaningful analysis, interoperability and integration of multiple resources. To address the above mentioned issues, knowledge representation technologies were studied, the selection of which typically constitutes a critical decision step during data integration process. Ontologies were chosen as the representation structure, since they enable the reuse of domain knowledge without reinventing the wheel. Furthermore, ontologies constitute the backbone of the semantic web and can be easily comprehensible by humans and machines. Next, data integration approaches were studied resulting in the definition of a biosignal integration methodology, which employed the conceptual data integration model and the Local As View approach. In the scope of the proposed data integration methodology, the global ontology was modeled according to ecgML mark up language hierarchy, which encompasses the structure and content of the most widely accepted standards in the cardiology domain. Additionally ontologies were introduced, not only as structures for the virtual unification of the underlying sources but also as platforms for the transparent content and context based searching from multiple data sources. The decoupling of the content and context of the signal was also proposed, in order to achieve its semantic enrichment and enable structured and comprehensible searching. Applying the above mentioned methodology to heterogeneous sources of ECG signals, induced the development of ROISES (Research Oriented Integration System of ECG Sources), which aimed at the semantic integration of the sources and enabled unified content and context base searching. The global ontology, which constituted the system’s search structure, enabled the clinician to follow alternative diagnostic and therapeutic pathways that could possible lead to hidden knowledge and unexpected results. The clinician could easily express queries constructed upon a structured terminology and redefine the relations among concepts. Such concepts could emerge after the meta analysis of the therapeutic procedure, based on diagnosis and the possibility of reevaluation of diagnosis and finally its mapping to standardized clinical guidelines. The next step included studying of ontology learning approaches, in order to develop a new ontology enrichment method, designed specifically for ROISES. The resources that were encapsulated to the system consisted of ECG collections encoded in EDF and SCP-ECG standards and a relational database for the management of patients with chronic diseases. Leveraging ROISES with new resources and resources with more data, induced the need for the semantic enrichment of the global ontology. Dynamic Terminology Enhancement Method (DTEM) was developed to address this issue, based on UMLS Metathesaurus services and machine learning techniques. Research and application of different machine learning techniques like Support Vector Machines and decision tree learning algorithms lead to the selection of the ones that rendered the most efficient results pertaining accuracy, specificity and sensitivity. DTEM manipulated the medical terms that were not mapped to any concepts in the global ontology, to primarily determine their suitability as potential classes in the global ontology hierarchy and secondarily, given the suitability of a medical term, elucidate its location in the hierarchy. The innovation of this study was related to both the approaches proposed and their application domain. More specifically, the proposed methodology lead to the implementation of a unified interoperable framework for studying and managing biosignals, by employing medical technology and medical terminology standards, both defined as ontologies. The global ontology, designed in a prototype hierarchical structure, provides alternative diagnostic and therapeutic pathways to the medical researcher that may lead to unexpected results. Concerning the application domain, semantic data integration has not been applied to biomedical signals and particularly ECG’s. This thesis substantially contributed to the dynamic semantic enrichment of ROISES data integration system, presented in chapter 5. The proposed approach enabled the dynamic enrichment of the global ontology with concepts originating from the resources. In this scope this approach, based on machine learning and UMLS Metathesaurus, added new concepts in the taxonomy of the global ontology in a semi-automatic manner. Additionally it contributed to the enrichment of the system’s search criteria in order to study the various parameters of ECG biosignals, revealing implicit knowledge and promoting research in the cardiology domain. Adding new data into existing resources and new resources encoded in various standards apart from SCP-ECG and EDF, constitutes a future step towards the system’s extension. Applying slight changes to the structure and terminology of the global ontology, could also allow for the encapsulation of other biomedical signals like EEG. Finally, adding real data, medical guidelines and therapeutic pathways will foster the system’s capability for medical decisions support.Το ερευνητικό πλαίσιο της συγκεκριμένης διδακτορικής διατριβής επικεντρώθηκε στη µελέτη, αναπαράσταση, διαχείριση και ενοποίηση του βιοϊατρικού σήµατος στον τοµέα της καρδιολογίας, δηλαδή το Ηλεκτροκαρδιογράφηµα (ΗΚΓ). Τα ΗΚΓ σήµατα αποθηκεύονται σε ηλεκτρονική µορφή είτε στο µορφότυπο που έχει καθοριστεί από την κατασκευάστρια εταιρία του Ηλεκτροκαρδιογράφου, είτε µετατρέπονται σε κάποιο κοινά αποδεκτό πρότυπο κωδικοποίησης όπως το EDF (European Data Format), το SCP-ECG (Standard communications protocol for computer assisted electrocardiography) κ.λ.π. Εκτός από το σήµα, τα πρότυπα αυτά περιλαµβάνουν επίσης τα µεταδεδοµένα του περιεχοµένου του σήµατος καθώς και δεδοµένα σχετικά µε το εννοιολογικό πλαίσιο δηµιουργίας του, δηλαδή τα δηµογραφικά στοιχεία του ασθενούς, τη συσκευή καταγραφής, τη διάγνωση, τον ερευνητή κ.λ.π. Τα µεταδεδοµένα του περιεχοµένου του σήµατος σχετίζονται µε τις επισηµειώσεις του γιατρού και µε κλινικά ερµηνευτικά δεδοµένα. Κίνητρο αυτής της διατριβής αποτέλεσε η αναγκαιότητα παροχής ενός ολοκληρωµένου και διαλειτουργικού περιβάλλοντος µελέτης των βιοϊατρικών σηµάτων, που προέρχονταν από διαφορετικές πληθυσµιακές οµάδες, συνθήκες λήψης και καταγραφής και παρουσιάζαν ετερογένεια σε διάφορα επίπεδα. Η απαίτηση για διαλειτουργικότητα εισήγαγε την έννοια των προτύπων, ο αριθµός των οποίων στον τοµέα της ιατρικής είναι τεράστιος. Τα ΗΚΓ σήµατα παραδοσιακά αποθηκεύονται σε µορφότυπους δυαδικής µορφής οι οποίοι δεν περιλαµβάνουν την απαραίτητη πληροφορία για αποτελεσµατική ανάλυση, ενοποίηση και διαλειτουργικότητα των πολλαπλών και ετερογενών πηγών δεδοµένων. Αρχικά µελετήθηκαν οι τεχνολογίες αναπαράστασης γνώσης, η επιλογή των οποίων κατά κανόνα αποτελεί κρίσιµο βήµα στην ολοκλήρωση δεδοµένων. Ως δοµή αναπαράστασης επιλέχθηκε η οντολογία γιατί δίνει τη δυνατότητα επαναχρησιµοποίησης της καταγεγραµµένης και σχετικής µε τον τοµέα γνώσης, χωρίς να χρειάζεται να την κωδικοποιήσει από την αρχή. Επίσης η οντολογία αποτελεί τη ραχοκοκαλιά του σηµασιολογικού ιστού και είναι εύκολα κατανοητή από ανθρώπους και υπολογιστές. Στη συνέχεια µελετήθηκαν προσεγγίσεις ολοκλήρωσης δεδοµένων και ορίστηκε µια µεθοδολογία ολοκλήρωσης βιοϊατρικών σηµάτων, που στηρίχθηκε στο εννοιολογικό µοντέλο ενοποίησης δεδοµένων και στην προσέγγιση Local As View. Στα πλαίσια της προτεινόµενης µεθοδολογίας ολοκλήρωσης, επιλέχθηκε η µοντελοποίηση της καθολικής οντολογίας να γίνει βάσει της γλώσσας ecgML, η οποία ενσωµατώνει τη δοµή και το περιεχόµενο των πιο αποδεκτών προτύπων στον τοµέα της Ηλεκτροκαρδιογραφίας. Επίσης προτάθηκε η χρήση της οντολογίας ταυτόχρονα ως δοµής για την παροχή ενοποιηµένης εικονικής όψης των υποκείµενων πηγών αλλά και ως πλατφόρµας διαφανούς έκφρασης ενιαίων συνδυαστικών ερωτηµάτων προς τις υποκείµενες πηγές. Προτάθηκε ακόµα ο διαχωρισµός του περιεχοµένου (content) από το ιατρικό πλαίσιο δηµιουργίας (context) των σηµάτων, προκειµένου να επιτευχθεί ο σηµασιολογικός εµπλουτισµός τους και να επιτραπεί η αναζήτησή τους µε δοµηµένα και κατανοητά κριτήρια. Το σύστηµα ROISES (Research Oriented Integration System of ECG Sources) προέκυψε ως εφαρµογή της παραπάνω µεθοδολογίας σε ΗΚΓ σήµατα. Το σύστηµα, επιτρέπει τη σηµασιολογική ολοκλήρωση ετερογενών ΗΚΓ σηµάτων και την αναζήτησή τους βάσει του περιεχοµένου και του ιατρικού πλαισίου δηµιουργίας τους. Η καθολική οντολογία, που αποτελεί τη δοµή έκφρασης ερωτηµάτων του συστήµατος, δίνει στο γιατρό τη δυνατότητα να ακολουθήσει εναλλακτικά διαγνωστικά και θεραπευτικά µονοπάτια που πιθανόν να τον οδηγήσουν σε απρόσµενα αποτελέσµατα. Ο ιατρός έχει τη δυνατότητα να εκφράσει τα ερωτήµατά του µέσω δοµηµένης ιατρικής ορολογίας και να επαναπροσδιορίσει τις σχέσεις µεταξύ των εννοιών που µπορεί να προκύψουν από την µετα-ανάλυση της θεραπευτικής αγωγής, βάσει της διάγνωσης, την πιθανότητα επαναξιολόγησης της διάγνωσης και την αντιστοίχιση µε προτυποποιηµένες κλινικές ιατρικές οδηγίες. Στη συνέχεια, µελετήθηκαν οι προσεγγίσεις οντολογικής µάθησης που έχουν προταθεί µέχρι σήµερα, προκειµένου να αναπτυχθεί µια νέα προσέγγιση οντολογικού εµπλουτισµού µε εφαρµογή το σύστηµα ROISES. Οι πηγές που ενσωµατώθηκαν στο σύστηµα αποτελούνταν από συλλογές καρδιογραφηµάτων κωδικοποιηµένων κατά τα πρότυπα EDF και SCP-ECG και µια βάση δεδοµένων για τη διαχείριση ασθενών µε χρόνιες παθήσεις. Η επέκταση του συστήµατος µε νέες πηγές και των πηγών µε νέα δεδοµένα, οδήγησε στην ανάγκη για σηµασιολογικό εµπλουτισµό της καθολικής οντολογίας. Η µέθοδος DTEM (Dynamic Terminology Enhancement Method) αναπτύχθηκε για να υλοποιήσει την παραπάνω απαίτηση, βασιζόµενη στις υπηρεσίες του UMLS Μεταθησαυρού και τις τεχνικές της µηχανικής µάθησης. Η διερεύνηση και εφαρµογή διαφόρων τεχνικών της µηχανικής µάθησης όπως Μηχανές ∆ιανυσµάτων Υποστήριξης, και αλγορίθµων µάθησης δένδρων ταξινόµησης οδήγησε στην επιλογή αυτών που έδωσαν τα καλύτερα αποτελέσµατα σε ακρίβεια, ευαισθησία και ειδικότητα. Η µέθοδος εκµεταλλεύτηκε τους ιατρικούς όρους που δεν αντιστοιχίζονται µε κάποια έννοια της καθολικής οντολογίας κατά τη διάρκεια της αντιστοίχισης, προκειµένου να διερευνήσει την καταλληλότητά τους ως πιθανές υποψήφιες κλάσεις στην καθολική οντολογία, και στη συνέχεια δεδοµένης της καταλληλότητάς τους, να προτείνει τις πιθανές θέσεις τους στην ιεραρχία της. Η εργασία παρουσιάζει πρωτοτυπία τόσο σε ότι αφορά τις προσεγγίσεις που προτάθηκαν όσο και στο πεδίο εφαρµογής τους. Συγκεκριµένα, η µεθοδολογία που προτάθηκε, οδήγησε στη δηµιουργία ενός ενιαίου διαλειτουργικού πλαισίου µελέτης και διαχείρισης βιοϊατρικών σηµάτων, µέσω της χρήσης ιατροτεχνολογικών προτύπων και προτύπων κωδικοποίησης της ιατρικής ορολογίας, τα οποία ορίστηκαν µε τη µορφή των οντολογιών. Η καθολική οντολογία µε την πρότυπη ιεραρχική δοµή της, δίνει στο γιατρό τη δυνατότητα να ακολουθήσει εναλλακτικά διαγνωστικά και θεραπευτικά µονοπάτια που πιθανόν να τον οδηγήσουν σε απρόσµενα αποτελέσµατα. Όσον αφορά το πεδίο εφαρµογής, τα βιοϊατρικά σήµατα και πιο συγκεκριµένα τα ΗΚΓ, αποτέλεσαν δεδοµένα στα οποία δεν έχει εφαρµοστεί η σηµασιολογική ολοκλήρωση δεδοµένων. Η διατριβή συνεισφέρει επίσης ουσιαστικά στο ζήτηµα του δυναµικού σηµασιολογικού εµπλουτισµού του συστήµατος ολοκλήρωσης δεδοµένων ROISES, που παρουσιάστηκε στο κεφ. 5. Η προσέγγιση που προτάθηκε επέτρεψε το δυναµικό εµπλουτισµό της καθολικής οντολογίας µε έννοιες που προέρχονταν από τα δεδοµένα των πηγών. Προτάθηκε µια καινοτόµος προσέγγιση βασισµένη στη µηχανική µάθηση και το λεξικό UMLS, που επέτρεψε την ηµιαυτόµατη προσθήκη νέων εννοιών στην ιεραρχία της καθολικής οντολογίας. Η προσέγγιση αυτή συνέβαλλε στην ανανέωση των κριτηρίων αναζήτησης και έρευνας των παραµέτρων του σήµατος ενώ παράλληλα εµπλούτισε την εµφανή γνώση µε επαγωγική µη εµφανή γνώση, προάγοντας την έρευνα και την υιοθέτηση νέων ιατρικών πρακτικών. Η προσθήκη νέων δεδοµένων στις ήδη υπάρχουσες πηγές και νέων πηγών ΗΚΓ σηµάτων κωδικοποιηµένων µε πρότυπα διαφορετικά από το SCP-ECG και το EDF, είναι ένα από τα επόµενα βήµατα επέκτασης του συστήµατος. Η εφαρµογή µικρών αλλαγών στη δοµή της καθολικής οντολογίας, µπορεί να επιτρέψει την εισαγωγή επιπλέον σηµάτων εκτός από το ΗΚΓ, όπως το Ηλεκτροεγκεφαλογράφηµα. Ο εµπλουτισµός του συστήµατος µε πραγµατικά δεδοµένα καθώς και µε ιατρικές οδηγίες και θεραπευτικές οδούς θα προσδώσει στο σύστηµα τη δυνατότητα στήριξης της ιατρικής απόφασης

    Applying VocPrez to operational semantic repositories: the NVS experience

    No full text
    The Natural Environment Research Council’s (NERC) Vocabulary Server (NVS1) has been serving the marine and wider community with controlled vocabularies for over a decade. NVS provides access to standardised lists of terms which are used for data mark-up, facilitating interoperability and discovery in the marine and associated earth science domains. The NVS controlled vocabularies are published as Linked Data on the web using the data model of the Simple Knowledge Organisation System (SKOS). They can also be accessed as web services (RESTFul, SOAP) or through a sparql endpoint. NVS is an operational semantic repository, which underpins data systems like SeaDataNet, the pan-European infrastructure of marine data management, and is embedded in SeaDataNet-specific tools like MIKADO. Its services are being constantly monitored by the SeaDataNet Argo monitoring system, ensuring a guarantee of reliability and availability. In this presentation we will discuss the pathway of challenges we encountered while enhancing an operational semantic repository like NVS with VocPrez, a read-only web delivery system for Simple Knowledge Organization System (SKOS)-formulated RDF vocabularies. We will also present our approach on implementing CI/CD delivery and the added value of VocPrez to NVS in terms of FAIRness. Finally we will discuss the lessons learnt during the lifecycle of this development. VocPrez2 is an open-source, pure Python, application that reads vocabularies from one or more sources and presents them online (HTTP) in several different ways: as human-readable web pages, using simple HTML templates for different SKOS objects and as machine-readable RDF or other formats, using mapping code. The different information model views supported by VocPrez are defined by profiles, that is, by formal specifications. VocPrez supports both different profiles and different formats (Media Types) for each profile. VocPrez enhanced the publication of NVS both for human users and machines. Humans accessing NVS are presented with a new look and feel that is more user friendly, providing filtering of collections, concepts and thesauri, and sorting of results using different options. For machine-to-machine communication, VocPrez presents NVS content in machine-readable formats which Internet clients can request directly using the Content Negotiation by Profile standard3. The profiles and formats available are also listed on an “Alternate Profiles” web page which is automatically generated per resource thus allowing for discovery of options. As a result, human or machine end users can access NVS collections, thesauri and concepts according to different information models such as DCAT, NVS’ own vocabulary model or pure SKOS and also in different serializations like JSON-LD , turtle, etc. using content negotiation

    NVS and SPARQ demo handout Presented at the AGU Annual Conference 2017 AGU data help desk

    No full text
    <p>The handout includes key linkages and basic queries to introduce the BODC vocabulary server and hosted SPARQL endpoints. It starts with the vocabulary server then moves onto finding data (including a simple federated query) before finishing with the Celtic Seas Portal that is a proof on concept showing web portals built on SPARQL endpoints.</p

    NVS and SPARQ demo handout - Presented at the AGU annual conference 2017 Data Help Desk

    No full text
    <p>The handout includes key linkages and basic queries to introduce the BODC vocabulary server and hosted SPARQL endpoints. It starts with the vocabulary server then moves onto finding data (including a simple federated query) before finishing with the Celtic Seas Portal that is a proof on concept showing web portals built on SPARQL endpoints.</p

    Using standards to model delayed mode sensor processes

    No full text
    Ocean data are expensive to collect. Data reuse saves time and accelerates the pace of scientific discovery. For data to be re-usable the FAIR principles reassert the need for rich metadata and documentation that meet relevant community standards and provide information about provenance. Approaches on sensor observations, are often inadequate at meeting FAIR; prescriptive with a limited set of attributes, while providing little or no provision for really important metadata about sensor observations later in the data lifecycle. As part of the EU ENVRIplus project, our work aimed at capturing the delayed mode, data curation process taking place at the National Oceanography Centre’s British Oceanography Data Centre (BODC). Our solution uses Unique URIs, OGC SWE standards and controlled vocabularies, commencing from the submitted originators input and ending by the archived and published dataset. The BODC delayed mode process is an example of a physical system that is composed of several components like sensors and other computations processes such as an algorithm to compute salinity or absolute winds. All components are described in sensorML identified by unique URIs and associated with the relevant datastreams, which in turn are exposed on the web via ERDDAP using unique URIs. In this paper we intend to share our experience in using OGC standards and ERDDAP to model the above mentioned process and publish the associated datasets in a unified way. The benefits attained, allow greater automation of data transferring, easy access to large volumes of data from a chosen sensor, more precise capturing of data provenance, standardization, and pave the way towards greater FAIRness of the sensor data and metadata, focusing on the delayed mode processing
    corecore